Pregunta 1

El analisis exploratorio para esta pregunta se encuentra acontinuación.

Es necesario destacar que, a pesar de que el dataset posee abundantes atributos, como ya se dijo en el hito uno, muchos de estos pueden tienen relación directa con otros, agregado a esto, en su gran mayoria las columnas son categoricas y poseen pocas clases (o derechamente son binarias). Afortunadamente, esto se compensa con la cantidad de instancias en el dataset, del orden de millones. Con esto podemos suponer (a priori) una caracterización lo suficientemente funcional.

Seleccionamos las columnas en orden de aparición (selección para la matriz de correlación del hito 1):

También añadimos nuevos atributos que pueden ser vitales en la caracterización:

Por lo tanto, nos quedamos con 22 de 47 columas

Para las columnas con variables categoricas ordinales, se tokeniza de igual manera: en orden. Para columnas categoricas nominales, se tokeniza de forma aleatoria.

Ordinales:

Se creará un diccionario para cada atributo, con sus clases y codificaciones.

Vemos que los clusters estan mejor demarcados por el método ward de clustering Jerárquico, por lo tanto, se decide ocupar para el resto del experimento. Notamos que, por la naturaleza de las instancias; desglosadas en un One-hot general, los métodos K-means o DBSCAN no podrían ser muy efectivos caracterizando el dataset.

Podemos reconocer una leve estructura de cluster en los datos, para el espacio One-Hot. En el caso del método PCA aplicado al espacio antes mencionado, notamos solapamiento entre clusters, aún así, en el gráfico podemos apreciacar estructuras interantes, las que posiblemente contengas información relevante.

Ahora, probamos aplicar Clustering Juerarquico a la colección de vectores luego de aplicar PCA.

Imposible establecer mediante el "método de la rodilla" un valor óptimo para epsilon. Esto de igual forma podría indicar que no se establecen cluster de la forma en que DBSCAN los establece.

El segundo gráfico es no concluyente, al aplicarse a una colección de vectores productos del PCA.

DBSCAN no es el método de clustering indicado para el problema